Um dos principais objetivos da Estatística é tirar conclusões a partir dos dados.
Dados em geral consistem de uma amostra de elementos de uma população de interesse.
O objetivo é usar a amostra e tirar conclusões sobre a população.
Quão confiável será utilizar a informação obtida apenas de uma amostra para concluir algo sobre a população?
Variável Aleatória: Característica numérica do resultado de um experimento.
População: todos os elementos ou resultados de um problema que está sendo estudado.
Amostra: qualquer subconjunto da população que contém os elementos que podem ser observados e é onde as quantidades de interesse podem ser medidas.
Parâmetros: Característica numérica (desconhecida) da distribuição dos elementos da população.
Estimador/Estatística: Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população.
Estimativa: Valor numérico que um estimador assume para uma dada amostra.
Seja \(X_{1},...,X_{n}\) uma amostra, \(T=f(X_{1},...,X_{n})\) é uma estatística.
Exemplos:
\(\bar{X}_{n}=\frac{1}{n}\sum_{i=1}^{n}X_{i}=\frac{1}{n}(X_{1}+...+X_{n})\): a média amostral é uma estatística.
\(X_{(1)}=min\{X_{1},...,X_{n}\}\).
\(X_{(n)}=max\{X_{1},...,X_{n}\}\).
\(X_{(i)}\) é o i-ésimo valor da amostra ordenada.
Note que uma estatística é uma função que em uma determinada amostra assume um valor específico (estimativa).
Para que serve uma estatística? Para "estimar" os valores de uma distribuição, ou características de uma população.
População:
Amostra:
Temos interesse em conhecer a média e variância das alturas dos brasileiros adultos. Sabemos que a distribuição das alturas pode ser representada por um modelo normal.
Solução 1: Medir a altura de todos os brasileiros adultos.
Solução 2: Selecionar de forma aleatória algumas pessoas (amostra), analisá-las e inferir propriedades para toda a população.
Seja \(\theta\) a proporção de alunos na Unicamp que doou sangue pelo menos uma vez nos últimos dois anos.
Inviável perguntar para todos os estudantes: coleta-se uma amostra.
Planejamento amostral: obter uma amostra aleatória simples de tamanho \(n=100\) alunos, sem reposição.
cada \(X_{i}\), \(i=1,...,100\), vai assumir o valor 1 se o aluno \(i\) doou sangue pelo menos uma vez nos últimos dois anos, e 0 se não.
estatística: \(T=\frac{X_{1}+...+X_{100}}{100}\).
uma vez que a coleta foi implementada, \(T\) assume um valor, por exemplo, 0.63, que será usado para estimar \(\theta\), ou seja, \(\hat\theta=0.63\).
Cada quantidade de interesse (como \(\theta\) no exemplo anterior) é chamada de parâmetro da população.
Para apresentar uma estimativa de um parâmetro (\(\hat\theta\)), devemos escolher uma estatística (\(T\)).
Note que da maneira que o plano amostral foi executado (amostra aleatória simples), a estatística \(T\) é uma variável aleatória, visto que cada vez que executarmos o plano amostral poderemos obter resultados diversos.
Portanto, a estatística \(T\) possui uma distribuição de probabilidade, chamada de distribuição amostral de T.
Se o dado é "honesto", quantos 6 você espera que ocorram em 100 lançamentos?
Se um dado "honesto" é lançado diversas vezes, esperamos que o 6 ocorra \(1/6\) das vezes.
100 lançamentos: \(100/6\approx 17\) vezes.
É muito improvável que o 6 saia 23 vezes em 100 lançamentos? Como verificar?
Você obtém assim a distribuição de frequências do 6 em 100 lançamentos do dado.
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| Freq | 12 | 21 | 28 | 6 | 20 | 13 |
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| Freq | 16 | 19 | 13 | 16 | 14 | 22 |
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| Freq | 11 | 21 | 22 | 13 | 19 | 14 |
A cada simulação (100 lançamentos e anotando o total de 6) obtivemos um resultado diferente: 13, 22 e 14.
Se repetirmos as simulação 1000 vezes, temos uma idéia da distribuição de frequências da proporção de 6 em 100 lançamentos.
Média: 0.167. Mediana: 0.17.
Com poucos lançamentos, a proporção de 6 pode flutuar bastante, mas com o aumento do número de lançamentos, a proporção acumulada de 6 estabiliza em \(1/6\).
O resultado da simulação é um caso particular da Lei dos Grandes Números, resultado provado em 1689 pelo matemático suíço Jacob Bernoulli.
Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada deste evento em relação ao total número de repetições converge em direção a p à medida que o número de repetições se torna arbitrariamente grande.
Resultado
Para uma amostra aleatória simples \(X_{1},...,X_{n}\) coletada de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande.
Definimos também:
\[Z=\frac{\bar{X}_{n}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)\]
\(X=\) resultado obtido no lançamento de um dado honesto.
| \(x\) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| \(p(x)=P(X=x)\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) |
\(E(X)=\frac{1}{6}\times(1+2+3+4+5+6)=\frac{21}{6}=3.5\)
\(Var(X)=\frac{1}{6}[(1+4+9+16+25+36)-\frac{1}{6}\times(21)^{2}]=\frac{35}{2}=17.5\)
\(X_i\): resultado do \(i\)-ésimo lançamento de um dado honesto.
\(X_i\) tem distribuição uniforme discreta \(\forall i\).
\(\mu=E(X_i)=3.5 \qquad\) e \(\qquad \sigma^2=Var(X_i)=17.5\), \(\forall i\).
Se temos uma amostra aleatória simples de tamanho \(n\): \(X_1,X_2,\ldots, X_n\), pelo TLC sabemos que a distribuição amostral de \(\bar{X}_n\) é aproximadamente Normal\(\left( 3.5, \frac{17.5}{n} \right)\).
O primeiro histograma a seguir mostra o resultado de 10000 repetições do seguinte experimento: observar o resultado do lançamento de 1 dado. Repare que é muito próximo de uma distribuição uniforme discreta (chance 1/6 para cada resultado).
O segundo histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 2 dados (equivalente a observar a média de 2 lançamentos de um dado).
O último histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 100 dados (equivalente a observar a média de 100 lançamentos de um dado).
Repare que conforme o número de dados (tamanho amostral) aumenta, a distribuição da média amostral se aproxima da distribuição normal com média 3.5 e variância cada vez menor (17.5/n).
Você pode verificar o comportamento de \(\bar{X}\) para vários tipos de distribuição de \(X\):
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho
Rafael Maia